思必驰在中文机器阅读理解公开评测中取得阶段性进展
日前,注重源头基础创新的思必驰,其知识服务团队在多个中文机器阅读理解公开评测中取得阶段性进展。此前,该团队还入选姑苏重大创新团队。
机器阅读理解(Machine Reading Comprehension)是自然语言处理和人工智能领域的重要前沿课题,旨在让机器阅读并理解非结构化的文本,可以准确地回答和文本内容相关的任何问题。
机器阅读理解对于提升机器的智能水平、使机器具有持续知识获取的能力、挖掘海量文本信息等具有重要价值,近年来受到学术界和工业界的广泛关注。
同时,机器阅读理解也是自动问答系统的一个重要手段。相比基于结构化知识源(比如数据库、知识图谱等)的自动问答,机器阅读理解可以大大减少结构化知识源的构建成本、降低自动问答系统使用成本,有助于最大程度地释放海量非结构化文本蕴含的信息。
近期,思必驰知识服务团队也在中文机器阅读理解方向投入研究,并在多个中文机器阅读理解公开评测中取得阶段性进展:
1)在CMRC 2018公开评测[1]中暂列第一,并在需要多线索联合推理的挑战集(Challenge set)上取得明显性能提升;
2)在“千言数据集:阅读理解”公开评测[2]的两个子任务(DuReader_robust和DuReader_yesno)上均暂列第一。
针对中文机器阅读理解的鲁棒性和泛化性问题,思必驰知识服务团队在以下几个方面开展了技术研究:
1)中文预训练语言模型的预训练与微调;
2)中文机器阅读理解领域自适应训练;
3)目标应用领域导向的多阶段模型微调等。
相关技术实现在上述公开评测中得到了应用和验证。
语言智能常被称为人工智能皇冠上的一颗明珠。在未来,思必驰知识服务团队将继续深耕语言理解领域,打造轻量、便携且精准的机器阅读理解系统,推动机器阅读理解在真实场景的落地和应用。
参考文献:
[1] CMRC 2018公开评测,https://ymcui.github.io/cmrc2018/.
[2] 千言数据集:阅读理解公开评测,https://aistudio.baidu.com/aistudio/competition/detail/49.
—如有合作意向,请发邮件—
marketing@aispeech.com